三代测序产量越高越好？您可能掉坑里了！

原创 2017-03-31 程红英 华大科技BGITech

第三代测序仪公司PacBio的新仪器——Sequel发布已一年有余。因其比原来RSII系统具有更高通量和更低成本的优势，吸引了大量关注。尤其是最近，随着V2.0版本测序试剂的发布，其漂亮的数据，更是让人跃跃欲试。然而，大家可能不知道是，在V2.0之前，有不成熟的V1.2.1，和更不成熟的V1.0和V1.2。在这期间，华大科技作为亚洲引进首台Sequel的公司，与PacBio公司一起，共同经历了这样一个从不成熟走向成熟的过程。

图1 在华大实验室中的Sequel仪器

对于三代测序平台，大多数人会自然地把二代测序平台的指标带入。例如，大家熟知的Q值，是在二代测序平台上评判数据质量的基础参数，在二代平台上通常用Q20和Q30表示。而在PacBio平台上，也有一个Q值，但是打分系统和二代不一样，两者并不具有可比性。而且，由于三代测序产生的错误是随机错误，所以可通过提高测序深度来增加准确性。今天科技君要跟大家分享的，就是像Q值这类常见的认知误区，让大家尽量避免“踩坑”。

先来看看华大科技最新V2.0试剂20K文库的数据下机报告。

图2 华大科技V2.0试剂20K文库下机报告

（点击图片可查看大图）

以上报告结果从左至右的结果分别是：

Name：样本名称；

Status：测序状态；

Movie Time（minutes）：运行时间，像图中的600分钟即表示一个cell的运行时间是10小时，原来大部分运行时间是6小时；

Total Bases(GB)：测序数据产量；

Read length：读长信息，分为酶读长和subread ,下文会针对不同读长有详细图解；

Productivity：产出率，有三个值，P0、P1、P2，有效值看P1即可，下文对此有详细解释。

划重点啦

1. Sequel 测序读长越长越好？哪种读长最重要？

对，读长越长越好。而在PacBio系统中，却有三种读长信息——Polymerase read、Read of insert和Subread length。它们分别是什么意思？到底哪个更重要呢？

Polymerase read指酶读长，表示测序过程从第一个有效碱基开始到最后一个碱基结束时测得的读长的总长度。正常测序情况下影响酶读长的因素包括：1.文库长度；2.测序酶的活性；3.测序运行时间。

在解释另外两种读长之前，我们先来看看Sequel测序的两种测序模式：

图3 Sequel 测序的两种测序模式

当文库的插入片段大于酶读长时，测序模式为CLR模式，表示酶的活性与测序时长不足以支撑它读完整个片段；

当文库的插入片段小于酶读长时，测序模式为CCS模式，表示酶的活性足够支撑它读完整个片段后还可以继续循环读下去。

Subread length指CCS测序模式下单个循环的长度，如果最后一个循环没读完也算一个subread，所以一条片段有可能存在多种subread。一个孔里最长的那条subread 即longest subread 和read of Insert 一样长，即Longest subread=read of insert。

图4 CCS测序模式下各种读长的图示

Read of insert指插入片段的序列读长，这个序列就是最后得到的序列。相应的，这个长度才是您得到的下机序列的长度。在CCS模式下和longest subread一样长，在CLR 模式下和酶读长差不多（差一个接头的长度）。

图5 CLR 模式下各种读长的图示

回到开始的问题，读长是不是越长越好呢？是的，读长越长越好。那么哪种读长最好？对于基因组组装来说，插入片段越长越利于组装，比较短的片段很可能被其它片段覆盖掉，在纠错的过程中被去除，所以reads of insert（longest subread）的长度越长越好，对于组装结果起着决定作用。

2. Sequel 测序结果产量越高越好？

这个说法对，也不对。对的前提就是——您需要的读长要有保障！科技君总结发现，Sequel测序结果呈现一个特点：插入片段读长和数据产出高比较难兼得。

在文库插入片段小的时候，在测序的过程中空间运行阻力小，酶读长偏长，数据产出结果高，read of insert 结果偏小；在文库插入片段大的时候，在测序的过程中空间运行阻力大，酶读长偏小，数据产出结果也偏低，但read of insert 结果会高。

所以想要获得高产出，可以采用降低文库插入片段长度、提高上样量等方式。但是，您得看下这个时候的插入片段读长，还是您期盼的三代的超长读长吗？

3. 为什么提高上机浓度可以提高产量呢？

在回答前科技君先解释一下Sequel下机结果中的P0、P1、P2的概念。

众所周知，Sequel仪器有100万个孔（专业叫法是零模波导孔，ZMW），但是上机前处理过程中，并不是每个孔都按照希望只落入一条片段的。所以——

P0：代表一个孔里一条片段也没有，即空载，无效；

P1：代表一个孔里有且只有一条片段，有效；

P2：代表一个孔里有两条或者两条以上的片段，无效。

大家一看都知道P1才是想要的有效数据。那么，P1的比例是不是越高越好呢？其实不然，让科技君来告诉您为什么！

如果过量提高上样量，也就是行业内常说的over loading，可以提高P1的比例，产量也会随着提高。

咦，这个听起来好像没错啊？错了，因为在提高上样量的时候，提高P1的同时必然伴随着P2的提高，由于片段太多，一个孔里2条或2条以上的几率就增大，那为什么最终结果看起来P2好像也没有高多少？这就涉及PB的测序原理了，不赘述。

简而言之，落在1个孔里的两条片段有长有短，两个酶的活性也有高有低，所以最开始时两条片段同时测序，信号互相干扰无法识别，被系统判定为P2，但此前有两种信号时的测序信息就全部丢失，相当于片段被截短；但是，过了一段时间后，其中一个片段的酶失活了，信号也就消失了，只剩下另一条片段的信号，这个时候系统又能识别单一的测序信号了，将这个孔判定为P1。所以到此，各位应该明白，当提高上样量时，P1的确增加了，但是这里面很多P1都是由P2转化而来的，提高产出的同时，把longest read的长度也给拉低了。所以，P1不是越高越好，因为一般P1太高，插入片段读长就会降低，要把握好这两者的平衡。最简单的判断方法还是看插入片段的读长，插入片段读长够高，P1略高点也没关系。

知识点太多，有点记不住啊！其实简单总结起来就是：

序列读长和数据产量，通常难以兼得。要想获得两者兼备的好数据，需要不断地摸索实验条件。
插入片段读长越长越好，如果插入片段读长够长，数据产出结果还很高的话，那么恭喜您，您的数据结果很漂亮，可以偷着乐啦！

近日，华大科技已经获得了一批高质量高产量的数据，见图6。

图6 同一个20K文库不同上机浓度的测序结果（V2.0试剂）

我们再通过图6的结果来回顾一下今天的知识点，图6是同一文库在不同上机浓度下的测序结果，可以看到在上机浓度不断提高的情况下，产量呈不断上升趋势，但酶读长及插入片段长度都呈下降趋势。不过插入片段均超过10Kb，表明数据结果还不错。如果插入片段比较低，需要看看是不是为了追求产量而得不偿失了。

前面的问题有点太难了，换个简单的问题吧！华大目前发表了哪些二代+三代的文章呢？

已经有四篇三代相关文章发表啦！想要获取更多相关信息，赶紧联系科技君吧！

电话：400-706-6615
邮箱：info@bgitechsolutions.com
网站：www.bgitechsolutions.com
地址：深圳市盐田区洪安三街21号华大综合园7栋，518083

参考文献：

[1] Ganapathy G, Howard J T, Ward J M, et al. High-coverage sequencing and annotated assemblies of the budgerigar genome[J]. GigaScience, 2014, 3(1): 11.

[2] Yan L, Wang X, Liu H, et al. The genome of Dendrobium officinale illuminates the biology of the important traditional Chinese orchid herb[J]. Molecular plant, 2015, 8(6): 922-934.

[3] Bombarely A, Moser M, Amrad A, et al. Insight into the evolution of the Solanaceae from the parental genomes of Petunia hybrida[J]. Nature plants, 2016, 2: 16074.

[4] Fukushima K, Fang X, Alvarez-Ponce D, et al. Genome of the pitcher plant Cephalotus reveals genetic changes associated with carnivory[J]. Nature Ecology & Evolution, 2017, 1: 0059.

撰稿：程红英

编辑：市场部

bxrf的瓜

嗷嗷哭！三斤午夜痛哭，压力太大了！阿哲遭恶意举报，爆瓜内幕！

童锦程爆阿哲抖音年度！哦嫂猫猫抖音复出开播！北王示爱囧囧丸！

陈泽心疼阿哲，回应大舞台节奏！哲修辰杭州聚会！宇文泡1600万叫价青蛙哥！

向哲学习！可楼扎心一修：哲哥比你年轻比你搞笑！芮甜甜官宣复播！